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jü SE: 计算 机 写 诗 是 实现 计算 机 写作 的 第 一 步 。 目 前 计算 机 写 诗 普遍 存在 主题 不 明确 、 a 
的 问题 。 为 改善 这 些 问题 , 效仿 古人 写 诗 的 过 程 , 提出 了 一 种 分 为 两 个 阶段 生成 古诗 的 方法 。 第 一 阶段 获取 写 诗 大 纲 ， 
此 过 程 采 用 TextRank 算法 对 用 户 输入 文本 提取 关键 词 , 并 提出 一 种 基于 注意 力 机 制 的 序列 到 序列 神经 网 络 模 型 用 于 关 
键 词 扩展 ; 第 二 阶段 根据 写 诗 大 纲 生成 每 一 行 诗句 ， 此 过 程 提出 一 种 包含 双 编 码 器 和 注意 力 机 制 的 序列 到 序列 神经 网 
络 模型 用 于 古诗 生成 。 最 后 通过 对 实验 结果 的 评估 验证 了 所 提 方 法 的 有 效 性 。 与 基准 方法 相 比 , 所 提 方 法 生成 的 古诗 ， 
主题 意义 更 加 明确 ， 诗 所 表现 的 内 容 和 写作 意图 更 加 一 致 。 

关键 词 : 关键 词 扩 展 ; 注意 力 机 制 ; 序列 到 序列 ; 神经 网 络 模型 ; 古诗 生成 
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Automatic generation of poetry based on sequence-to-sequence neural network model 


Huang Wenming! ?, Wei Wancheng!, Deng ZhenrongL? 
(1. College of Computer & Information Security, Guilin University of Electronic Technology, Guilin 541004, China; 2. Guangxi 
Colleges & Universities Keys Laboratory of Cloud Computing & Complex Systems, Guilin 541004, China) 


Abstract: Computer poetry generation is our first step towards computer writing. At present, there are many problems in 
computer poetry writing, such as unclear theme, the content of poetry is inconsistent with the writing intention. For improving 
these problems, this paper follows the process of writing poem by the ancient Chinese poet and proposes a method for generating 
Chinese poetry with two stages. The first stage extracts the outline. During this process, this paper use TextRank algorithm to 
extract keywords from user input text, and propose an attention-based sequence to sequence neural network model for expanding 
keyword. The second stage generates each line of poem based on the outline of poem. During this process, this paper proposed 
a sequence to sequence neural network model with dual-encoding and attention mechanism for generating poem. At the end, 
this paper verified the effectiveness of our approach by evaluation. Compared with baseline approach, the theme of the poem 
generated by our approach is more explicit, and the contents expressed by the poem are more consistent with the writing intention. 


Key words: keywords expansion; attention mechanism; sequence to sequence; neural network model; Chinese poetry generation 


0 引言 律 上 具有 严格 的 限制 ， 所 以 好 的 绝句 朗诵 起 来 节奏 感 很 强 。 
Al 唐诗 绝句 
古诗 是 中 国文 化 的 精粹 。 上 古诗 一 般 被 用 来 歌颂 英雄 和 信物、 春晓 
美丽 的 风景 、 爱 情 、 友 谊 等 。 古诗 被 分 为 很 多 类 , 唐诗、 宋词 、 春 卢 不 觉 晓 ，( 平 平 灰 平 大 ) 
元 曲 等 ， 每 种 古诗 都 有 自己 独特 的 结构 、 韵 律 。 表 1 中 展示 了 处 处 闻 啼 鸟 。( 灰 大 平平 大 ) 
种 中 国 古 代 最 流行 的 古诗 体裁 一 一 唐诗 绝句 。 绝 句 在 结构 和 夜来 风雨 声 ，( 大 平平 灰 平 ) 
韵律 上 具有 严格 的 限制 :每 首 诗 由 四 行 组 成 ， 每 一 行 有 五 个 或 dEXE RIED. GEDGESEDO 
者 七 个 汉字 (五 个 汉字 a D 
每 个 汉字 音调 要 么 是 平 ， 要 么 是 从; 诗 的 第 二 行 和 最 后 一 行 的 近 几 年 ， 古 诗 自动 生成 研究 得 到 了 学 术 界 的 广泛 关注 。 科 
最 后 一 个 汉字 必须 同属 于 一 个 韵 部 帆 。 正 因为 绝句 在 结构 和 韵 。” 研 者 们 采用 了 各 种 方法 研究 古诗 生成 ， 文 献 [2~6] 采 用 规则 和 
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模板 的 方式 ,文献 [7 一 9] 采 用 


文本 生成 算法 生成 


采用 自动 摘要 的 方法 ， 文 献 [ 


11,12] 采 用 统计 机 器 翻译 的 方法 。 


最 近 ,深度 学 习 方 法 被 广泛 的 应 月 
并 取得 了 很 大 的 成 效 。 在 古诗 
新 的 思路 ， 将 古诗 
过 用 户 输入 的 写作 意 
生成 的 诗句 顺序 地 
让 古诗 生成 在 效果 


然 语言 生成 任务 上 


ff 诗 ， 文 献 [10] 


过 翻译 先前 行 得 出 下 一 行 。 这 种 方法 类 似 于 SMT, 但 是 在 两 句 
话 之 间 的 语义 相关 性 更 好 ， 在 文献 [13] 中 没有 考虑 第 一 行 诗 的 


生成 任务 上 , 文献 [13 一 16] 提 出 了 
1 到 序列 的 生成 问题 ， 通 


^E BUE de — PUT T 


看 每 行 根据 已 


生成 , 所 以 需要 月 


户 输 入 诗 的 第 一 行 。 文 献 [15] 将 这 种 方法 应 用 


在 绝句 生成 上 面 


这 会 导致 生成 出 来 的 诗 所 表现 
所 表现 的 主题 不 明确 。 
本 文 效仿 了 古人 作 庄 


在 着 一 定 的 问题 。 采 用 这 种 方法 用 
的 生成 产生 了 较 大 


生成 。 这 种 生成 方法 取得 了 很 大 的 进步 ， 也 
上 上 了 很 大 一 个 台阶 ， 但 是 生成 方法 还 是 存 
仅仅 对 第 一 行 诗 
其 他 三 行 诗 的 生成 没有 什么 影响 ， 


3 不 一 致 ， 古诗 


个 相互 联系 的 关键 词 作为 诗 
古诗 。 在 第 二 阶段 
已 生成 的 诗句 作为 具有 双 编 码 器 和 
型 的 输入 ， 顺 序 地 生成 整 首 诗 。 本 文 方法 
展 出 诗 的 大 纲 ， 大 旨 
大 纲 来 生成 ， 所 以 生成 4 


写作 意图 。 
1 ”相关 工作 
在 自然 语言 处 到 


务 。 文 献 [5.6] 提 | 
方法 。 文 献 [4] 采 用 基 
短语 搜索 的 方 3 
诗 进行 分 析 、 生成。 文 
基于 语料库 生成 诗歌 
比 问题 ， 采 ) 


古诗 的 方法 : 
第 二 阶段 根 
列 模型 顺序 地 


E 成 诗 的 每 一 行 。 在 
写作 意图 ; 然后 采用 TextRank 算法 提取 关键 词 ， 
种 基于 注意 力 机 制 的 序列 到 


并 提出 采用 
LET TE 


序列 模型 对 关键 词 志 


上 了 一 种 分 两 个 阶段 生成 
辐 得 到 作 诗 的 大 纲 ; 
有 双 编 码 器 和 注意 力 机 制 的 序列 到 序 
PF， 用 户 首先 输入 


HS — 4T » OC 


并 解决 第 一 行 诗 的 生成 问题 ,根据 用 户 输入 ， 
然后 利用 一 个 单独 的 神经 机 器 翻译 模型 NMT) 将 其 翻译 成 诗 
[20] 提 出 一 个 新 的 诗歌 生成 算法 , 首先 根据 输入 


的 关键 词 生成 出 相关 的 韵文 ， 然 后 根据 韵文 利用 序列 到 序列 模 


型 [生成 整 首 诗 。 

以 上 上 古诗 时 
对 应 的 古诗 。 而 
入 受 限 、 诗 表达 3 
为 改善 这 些 问 题 , AC p H 
针对 以 上 方法 仅 允许 用 户 


输入 不 受 限制 ， 


的 序列 到 序列 模 


9 行 诗句 的 
了 诗句 对 应 一 个 关键 词 ， 将 关键 词 和 


TRW, RHN 


户 输入 文本 ， 然 后 生成 与 之 


上 方法 生成 的 古诗 存在 用 户 输 


FE 题 不 明确 、 内 容 与 写作 意图 不 一 致 等 问题 。 
tH 了 新 颖 的 方法 。 其 贡献 如 下 : 首先 ， 
入 关键 词 或 者 需要 用 户 给 出 诗 的 第 


对 用 户 输入 文本 提取 关键 词 的 方法 ， 使 用 户 
] 户 输入 可 以 是 一 个 词 ， 一 个 句子 ， 甚 至 一 段 
FE 题 不 明确 的 问题 ， 首 次 提出 采用 一 种 


一 行 的 问题 ， 采 


话 ; 其 次 ， 针 对 诗 


基于 注意 力 机 币 
引入 的 注意 力 机 


4 序列 到 序列 模型 对 大 纲 关 键 词 扩展 ， 模 型 中 
HAIXE LSTM， 使 所 扩展 的 关键 词 之 间 联 系 


大 大 增强 ， 且 一 定 程度 上 能 够 体现 出 古诗 的 主题 情感 ， 最 后 ， 


于 从 写作 意图 中 扩 


针对 诗 表达 内 容 与 写作 意 银 
双 编 码 器 和 注意 力 机 币 


不 一 致 的 问题 ， 提 出 采用 一 种 具有 
1 的 序列 到 序列 模型 生成 古诗 ， 将 大 纲 关 


系 ， 诗 又 是 严格 按照 
FE 题 明确 ， 内 容 一 致 ， 且 紧 扣 


有 挑战 性 的 任 
于 语义 和 语法 模板 的 西班牙 诗 生 成 
F 词 联想 的 方法 生成 伯 句 。 文 献 [2,3] 采 用 
。 文 献 [16] 采 用 统计 的 方法 对 格律 
献 [17] 采 用 了 严格 的 模板 方式 实现 了 一 个 
的 系统 。 文 献 [10] 认 为 诗歌 生成 是 个 可 优 


2 ”方法 实现 


2.1 概述 


该 文 将 古诗 4 


意图 构建 作 诗 大 


键 词 和 已 生成 的 请 


Fj 句 作为 模型 的 输入 ， 输 出 每 一 行 诗句 ， 每 行 


诗句 严格 按照 大 纲 来 生成 ,使 生成 的 古诗 内 容 与 写作 意图 一 致 。 


个 阶段 ， 第 一 阶段 根据 用 户 输入 的 
阶段 根据 作 诗 大 纲 生 成 整 首 古诗 。 图 


1 展示 了 古诗 生成 的 整个 流程 。 假 设 一 首 古诗 由 N 行 诗句 组 成 ， 


Li 代表 第 i fy 
N 个 关键 词 (KK Ks... Ku); 


将 Ki; 和 Liii 作 为 输入 ， 


文献 [7 一 9] 采 用 
Cstatistical machine tran 
法 。 文 献 [18] 采 用 
对 联 可 以 被 看 做 是 只 有 两 行 
译 出 第 二 行 。 文 献 [1 
来 生成 绝句 ， 根 据 并 


最 近 ， 深 度 学 习 方法 在 诗 


SCA 12] 18 H 


种 方法 首先 根据 给 定 
出 的 循环 神经 网 


H 了 基于 循环 神经 


E 


诗 。 文 献 [13] 采 用 当 到 端的 神经 机 器 翻译 模型 生成 宋词 ，; 


1 的 方法 生成 诗歌 。 

其 中 统计 机 器 翻译 
slation, SMT) 算法 是 一 种 很 有 效 的 方 
于 SMT 的 模型 来 自 
诗句， 第 一 行 被 视 为 源 语言 ， 翻 
E 了 延伸 ， 将 SMT 的 模型 用 


生成 汉语 对 联 ， 


生成 任务 上 获得 了 很 大 的 成 功 。 
网 络 RNN) 的 绝句 
的 关键 词 利用 2010 年 Mikolov 等 人 09] 提 
络 语言 模型 (RNNLM ) 生成 诗 的 第 一 行 , 然 
后 面 行 根据 前 面 已 经 生成 的 所 有 行 顺序 的 生成 ， 最 后 组 成 一 


E 成 方法 , 这 


[Ur d 


2.2 大 纲 构 建 


第 一 阶段 中 ， 根 据 用 户 输入 的 意图 ， 构 建 出 
关键 词 就 是 作 诗 大 纲 。Ki 表 示 第 
i 个 关键 词 ,在 生成 阶段 作为 第 i 行 诗 句 的 子 标题 ,第 三 阶段 中 


其 中 Z 为 已 生成 的 所 有 行 


He. dp RD 
诗句 进行 生成 ， 如 此 ，) 


网 给 的 一 个 子 标题 和 之 前 生成 的 所 有 行 
页 序 地 生成 整 首 诗 。 


假如 要 生成 的 一 首 诗 有 N 行 , 那么 需要 构建 Y 个 相互 之 间 


具有 联系 的 关键 词 来 作为 大 纲 ， 一 个 关键 词 作为 一 行 诗句 的 子 
取 关 键 词 。 假 设 用 户 的 输入 为 
取出 来 的 关键 词 数 要 小 于 等 于 


bw. Tic. Md 
A, A 有 长 有 短 ， 从 4 中 本 文 
N。 如 果 4 很 长 ， 那 么 提取 其 中 最 台 
KA. 如果 4 较 短 ， 从 4 
要 将 关键 词 个 数 扩 
2.2.1 关键 词 提取 
首先 ， 从 用 户 输入 文本 中 提取 关键 词 。 本 文采 用 TextRank 


EE 要 的 入 个 关键 词 作为 作 诗 


提取 出 的 关键 词 小 于 V 个 ,那么 需 


算法 3 评估 词 在 一 句 话 或 者 一 段 话 中 的 重要 程度 。TextRank 是 
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PageRank 算法 PR 演化 而 来 ， 是 一 种 基于 图 排序 的 算法 。 在 
TextRank 算法 中 ， 由 节点 及 节点 间 的 连接 关系 构成 一 个 无 向 的 
网 络 图 ， 节 点 之 间 的 权重 根据 两 个 词 的 总 计 共 现 次 数 来 设 定 。 

根据 TextRank 最 终 得 分 进行 排序 , 得 出 用 户 输入 文本 中 最 关键 
的 MM 个 词 (MN)。 一 开始 ， 给 S(W 一 个 初始 化 值 ， 然 后 根据 
式 (1) 进 行 迭 代 ， 计 算得 分 ， 直 到 收 全 。 


其 中 :wi 是 节点 GA V ERARE; EWR VERK 
节点 的 集合 ; 4 表示 阻尼 因子 ， 通 常设 为 0.8P71; S( 罗 为 节点 Vi 
的 TextRank 得 分 ， 初 始 分 被 设 为 1.0。 


Hp 


小 草 
春天 


S H n 


|  *RAERERS. 


最 是 春风 第 一 声 ， 


(pgseq2seq) 


图 1 古诗 生成 框图 


2.2.2 关键 词 扩展 

一 般 情况 下 ， 从 用 户 输入 4 中 提取 的 关键 词 M 都 会 小 于 
NN， 此 时 需要 对 关键 词 进行 扩展 。 关键 词 作为 作 诗 大 纲 ， 导向 诗 
的 主题 及 意义 ， 诗 生成 的 好 坏 ， 关 键 词 起 到 了 重要 的 作用 。 从 
用 户 输入 文本 中 提取 的 关键 词 ， 受 限于 用 户 输入 ， 而 关键 词 的 
扩展 不 受 任何 限制 ， 因 此 对 关键 词 扩 展 作 深入 研究 很 有 必要 。 
本 文 在 关键 词 扩 展 方 面 进行 了 深入 研究 ， 力 求 关 键 词 的 扩展 贴 
近 诗 人 的 联想 。 本 文 尝试 了 以 下 三 种 方法 对 关键 词 作 扩展 基 
于 神经 网 络 语言 模型 扩展 方法 ; 基于 word2vec 词 向 量 模型 的 扩 
展 方法 ， 基 于 注意 力 机 制 的 序列 到 序列 模型 扩展 方法 。 

1) 基于 神经 网 络 语言 模型 扩展 方法 

本 文 将 循环 神经 网 络 语言 模型 (recurrent neural network 
language model，RNNLM) 09 中 循环 神经 网 络 (recurrent neural 
network，RNN)， 用 门 控 循 环 单元 (gated recurrent unit, GRU) 
的 代替 。 众 所 周知 ，GRU 相对 于 RNN 能 够 更 好 地 学 习 到 时 序 
数据 之 间 的 长 期 依赖 。 本 文采 用 模型 根据 已 有 的 关键 词 去 扩展 
其 他 的 关键 词 ， 扩 展 公式 为 f= arg naxs P(K | hi ,) 。 其 中 : 
Ki 是 第 i 个 关键 词 ， Ki:ii 是 Ki 之 前 的 所 有 关键 词 序 列 。 模 型 的 
训练 数据 是 从 训练 古诗 中 提取 的 关键 词 序列 。 使 用 TextRank 算 
法 从 每 行 诗句 中 提取 一 个 得 分 最 高 的 关键 词 作为 诗句 的 标题 。 


mu 


如 果 一 首 诗 由 N 行 诗句 组 成 ,就 提取 N 个 关键 词 ， 组 成 一 个 关 
键 词 序列 。 从 所 有 收集 的 古诗 中 提取 所 有 关键 词 序列 ， 组 成 一 
个 训练 语料库 ， 用 来 训练 模型 。 


2) 基于 word2vec 词 向 量 模型 的 扩展 方法 
word2vec 模型 是 Google 在 2013 年 开源 地 将 词 表征 为 实 
数值 向 量 的 一 种 高 效 的 算法 模型 。 通 过 语料库 的 训练 ， 词 可 以 
用 工 维 向 量 空间 表示 ,而 向 量 空间 上 的 相似 度 可 以 用 来 表示 文 
本 语义 上 的 相似 。 本 文 用 收集 到 的 所 有 古诗 作为 语料库 ， 训 练 
word2vec 词 向 量 模型 ， 词 向 量 维度 7 了 取 100。 Ki 表示 第 i 个 关 


Est 


键 词 ， 当 i<N 时 ， 使 用 word2vec 词 向 量 模型 对 关键 词 进行 扩 
展 ,寻找 与 Ki 在 向 量 空间 上 相似 的 词 ， 取 其 中 相似 度 最 高 的 词 
作为 Ki 的 扩展 词 ， 最 终 扩 展 成 N 个 关键 词 。 
3) 基于 注意 力 机 制 的 序列 到 序列 模型 扩展 方法 
本 文 将 词 扩展 看 成 是 一 个 序列 到 序列 的 问题 ， 并 首次 将 注 
意 力 机 制 和 双向 长 短 时 记忆 网 络 (bidirectional long short-term 
于 关键 词 扩 展 模型 。 模 型 输入 序列 
是 从 写作 意图 中 提取 出 的 和 当前 模型 已 生成 的 所 有 关键 词 ， 输 
出 序列 是 预测 出 的 关键 词 。 在 序列 到 序列 模型 中 ， 模 型 输入 序 
列 被 转换 成 可 以 代表 其 语义 的 隐 层 状态 的 过 程 叫 编码 ， 根 据 隐 
层 状 态 规律 地 生成 目标 关键 词 序列 的 过 程 叫 解码 。 本 文 借鉴 
Bahdanau 等 人 的 的 基于 注意 力 机 制 的 序列 到 序列 生成 模型 , 提 
出 基于 注意 力 机 制 的 序列 到 序列 的 关键 词 扩展 模型 
(keseq2seq )， 模 型 结构 如 图 2 所 示 。 


M 


memory net, BiLSTM) 应 


! LSTM 


图 2 基于 注意 力 机 制 的 序列 到 序列 关键 词 扩展 模型 
一 般 序 列 到 序列 模型 中 ， 编 码 器 和 解码 器 采用 两 个 RNN. 
因为 RNN 不 能 很 好 地 学 习 历 史 信 息 , 而 长 短 时 记忆 网 络 (long 


zu 
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short-term memory net, LSTM) 很 好 地 弥补 了 这 个 问题 。 在 方法 3) 的 关键 词 扩展 方法 由 本 文 首 次 提出 。 在 论文 实验 结果 
keseq2seq 中 , 本文 引入 BiLSTM 作为 编码 器 ,并 融合 注意 力 机 中 ， 本 文 只 采用 了 方法 3)， 因 为 在 古诗 生成 任务 上 ， 很 明显 地 
制 ，LSTM 作为 解码 器 。 其 中 ，BiLSTM 不 仅 能 很 好 地 学 习 历 发 现 第 三 种 方法 优 于 前 两 种 方法 。 基 于 注意 力 机 制 的 序列 到 序 
史 信 息 ， 还 能 学 习 未 来 信息 。 引 入 的 注意 力 机 制 在 每 个 生成 时 列 词 扩展 模型 能 够 很 好 地 学 习 一 个 词 与 男 一 个 词 之 间 的 联系 。 
刻 ， 能 够 更 加 关注 与 之 密切 相关 的 输入 词 。 本 文 提出 的 本 文采 用 从 训练 古诗 中 提取 关键 词 ， 组 成 语料库 ， 用 于 训练 
keseq2seq 模型 实现 过 程 如 下 : 编码 器 将 输入 序列 (Xr Xa...) ii keseq2seq 模型 , 让 模型 学 习 古 诗 中 前 面 诗句 的 关键 词 与 下 面 诗 
码 成 隐 层 状态 (hhz,.….)， 其 中 ，Xi 为 第 i 个 关键 词 编码 向 量 ; 句 的 关键 词 之 间 的 联系 。 如 此 训练 ， 模 型 可 以 根据 输入 词 ， 输 
解码 器 用 隐 层 状态 (hz,hzs…) 生 成 输出 序列 (y1yz,.…)。 每 个 生成 出 与 之 紧密 联系 的 词 ， 这 个 过 程 像 是 诗人 在 联想 。 

时 刻 ， 向 量 y 根 据 上 一 时 刻 的 向 量 yrz 和 当前 状态 $1 以 及 当前 2.3 古诗 生成 模型 

的 文本 语义 向 量 cr 进行 生成 ， 其 中 c 由 编码 器 的 隐藏 层 状态 论文 同样 将 古诗 生成 过 程 看 成 是 一 个 序列 生成 男 一 个 序列 ， 
(hshz,.…) 乘 上 注意 力 权重 aK. 注意 力 机制 中 , 每 个 隐藏 状 与 keseq2seq 不 同 的 是 输入 由 两 个 序列 组 成 : 规定 的 关键 词 和 
态 应 对 预测 六 的 贡献 程度 由 注意 力 权 重 aii 控 制 ,根据 Sez 和 hi ”所 有 已 生成 的 诗句 。 本 文 对 基于 注意 力 机 制 的 序列 到 序列 模型 
相关 度 得 出 an, 通过 权重 au 的 控制 ， 解 码 器 将 会 更 加 注意 与 P35 进行 改进 ， 让 模型 能 够 支持 多 序列 输入 。 图 3 展示 了 修改 后 
当前 生成 密切 相关 的 输入 部 分 。 在 keseq2seq 词 扩 展 模 型 中 ， 的 县 有 双 编 码 器 和 注意 力 机 制 的 序列 到 序列 古诗 生成 模型 
引入 BiLSTM 和 注意 力 机 制 可 以 大 大 增强 了 词 与 词 之 间 的 联系 。 (pgseq2seq) 结构 。 

以 上 方法 1) 和 2)， 在 一 般 关键 词 扩 展 应 用 中 常 被 采用 ， 


ra. 
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图 3 ”具有 双 编 码 器 和 注意 力 机 制 的 序列 到 序列 古诗 生成 模型 


假如 关键 词义 有 Tu RENS K = {a an as... aj), BÆ 在 每 一 时 刻 ，S 按照 式 (4) 进 行 更 新 。 
成 的 文本 和 有 Tx 个 字符 ，X = 区 xs Xn). 编码 阶段 本 
S, = f(s, 5 Y, 6) (4) 


文 同 样 引入 BILSTM, , 首先 将 天 编码 成 隐藏 状态 的 向 量 [ : 5], 
将 对 编码 成 bh， hl; 然后 将 [i : 六 ] 整 合成 一 个 向 量 r， 整 Rp: /的 是 激活 函数 ;cr 由 所 有 输入 序列 的 隐 层 状态 得 出 ， 按 
合 方法 是 将 BiLSTM 中 前 向 传播 的 最 后 一 个 状态 和 有 反 向 传播 第 照 式 (5) 计 算 。 


po LM i " 
个 状态 进行 连接 ， 如 式 (2) 所 示 。 Yat B 
LL 图 Q) RP: 如 是 输入 序列 中 第 j 个 字符 的 编码 向 量 ，ay 为 万 的 注意 
力 权重 ，ay 被 式 (6) 计 算得 出 。 
句 量 = [A : 如] 表示 关键 词 K 和 已 生成 的 文本 对 ， 其 中 —À 
hore, [h : hz] 表示 已 生成 的 文本 。 在 图 3， 生成 第 一 行 诗 的 时 Hc LUN (6) 
候 ， 没 有 已 生成 的 文本 ， 此 时 ，T=0， 石 =[ho]， 所 以 第 一 行 诗 2 CXP en) 
名 仅仅 根据 大 纲 的 第 一 个 关键 词 来 生成 。 其 中 : 上 从 0 开始 ， ex 公式 如 式 (7) 所 示 。 
在 解码 阶段 本 文 引入 另 一 个 LSTM， 在 了 时刻， 根据 So ， 
— mM 、 ep = v, tanh(F,s, , + U,h,) (7) 
文本 语义 向 量 c 和 先前 的 输出 yer 生成 最 可 能 的 输出 yo WR 
G) 所 示 。 其 中 ; va, WH U RE — Ao Ue, 在 模型 训练 中 需要 去 优化 。 


y, = arg max, PCy | Ji C,» s,) 6) 
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3 ”实验 结果 还 没有 一 种 专门 的 自动 评估 方法 用 于 古诗 生成 评估 ， 尽 管 在 文 
献 [13,26] 中 都 采用 了 BLEU 的 自动 评估 方法 ，BLEU 评估 方法 

3.1 数据 处 理 和 人 工 评估 有 一 定 的 相关 性 ， 但 是 BLEU 和 人 工 评估 相 比 还 不 
实验 中 ， 本 文 实现 了 格律 诗 的 生成 ， 格 律诗 有 4 行 诗句 ， 足以 完全 体现 出 一 种 古诗 生成 方法 的 有 效 性 。 就 目前 来 看 ， 人 

每 行 诗 有 5 个 或 者 7 个 汉字 。 AANER T 76475 首 格 得 工 评估 在 古诗 生成 任务 上 是 一 种 最 有 效 的 评估 方法 。 在 本 文中 
诗 ， 从 中 随机 挑选 了 2000 首 诗作 为 验证 集 ，2 000 首 诗作 为 测 ”采用 人 工 评估 方法 对 比 本 文 方法 和 基准 方法 。 参 考 文 献 [10 一 12] 


Tar 


试 集 ， 剩 余 的 72 475 首 诗作 为 训练 集 。 的 评估 思路 ， 从 “前 后 押韵 、 语 言 流畅 、 内 容 一 致意 义 ” 四 
首先 ， 对 所 有 十 诗 进行 分 词 处 理 ; 然后 计算 每 个 词 的 个 部 分 去 判断 生成 的 古诗 好 坏 ， 每 个 部 分 设置 最 高 分 为 5 分 ， 
TextRank 分 , 将 TextRank 分 最 高 的 词 作为 每 句 诗 的 关键 词 , 一 ”得 分 越 高 越 好 。 让 每 种 方法 对 应 的 古诗 生成 系统 分 别 生成 20 首 
首 诗 中 提取 出 四 个 关键 词 ， 形 式 如 表 2 所 示 。 从 所 有 训练 集中 ”五 言 绝 句 和 20 首 七 言 绝句 ， 然 后 邀请 20 位 都 具有 硕士 学 历 及 


共 提取 了 289 900 个 关键 词 。 将 每 首 诗 的 关键 词 处 理 成 表 3 形 ”以 上 的 学 者 对 所 有 生成 的 绝句 分 别 打分 ， 最 后 取 四 个 部 分 得 分 
式 用 于 训练 2.2.2 节 中 keseq2seq 模型 ， 本文 将 每 首 诗 的 诗句 和 的 平均 作为 最 后 得 分 。 

对 应 的 关键 词 处 理 成 表 4 形式 用 于 训练 2.3 节 中 的 pgseq2seq 3.4 实验 结果 分 析 

模型 。 本 文中 对 比 了 四 种 基准 方法 ， 并 对 所 有 的 方法 都 作 了 相同 


表 2 绝句 对 应 的 关键 词 处 理 ， 四 种 基准 方法 如 下 : SMTUU, RNNLM?", RNNPGU?I, 
ud Keyword ANMTP3。 表 5 中 展示 了 人 工 评估 的 结果 ， 在 图 4 和 5 中 以 柱 

Karim 长 江 状 图 的 形式 同样 展示 了 评估 结果 。 
万 里 念 将 归 万 里 从 结果 中 可 以 看 出 ， 本 文 所 提 方 法 在 五 言 和 七 言 绝句 生成 
况 属 高 风 晚 高 风 中 都 优 于 所 有 基准 方法 。 结 果 显 示 SMT 方法 在 前 后 押韵 上 优 
山 山 黄 叶 飞 T" T RNNLM 方法 ， 这 说 明了 基于 翻译 原理 的 方法 比 语言 模型 生 
表 3 keseq2seq 模型 训练 数据 成 方法 更 能 学 习 到 前 后 诗句 的 押韵 关系 ; ANMT 方法 比 SMT, 
Tapat Output RNNIM, RNNPG 方法 都 表现 得 优越 ,但 是 和 劣 于 本 文 方法 ; 本 
长 江 万 里 文 方法 和 ANMT 都 采用 了 基于 注意 力 机 制 的 序列 到 序列 的 生 
KI: 万 里 高 风 成 模型 ,不 同 的 是 本 文 是 根据 事先 构建 的 大 纲 去 生成 每 一 句 诗 。 
ET. 万 里 ;高 风 il 从 ANMT 和 本 文 方法 对 比 来 看 , 在 前 后 押韵 和 语言 流畅 上 
表 4 pgseq2seq 模型 训练 数据 de 但 是 在 内 容 一 致 和 意义 上 得 到 了 很 
Input Output 大 的 提高 。 这 正 是 得 益 于 方法 中 大 纲 的 构建 ， 根 据 大 纲 中 关键 
长 江 EN nm 词 和 先前 的 诗句 作为 具有 双 编 码 器 和 注意 力 机 制 的 序列 到 序列 
万 里 "m 万 里 念 将 归 古诗 生成 模型 的 输入 ， 生 成 的 诗 会 让 整 首 诗 所 表达 的 内 容 更 加 
高 风 长 江 翡 已 洁 ， 万 里 念 将 归 UR BLXUM. 一 致 。 另 外 ， 大 纲 中 关键 词 之 间 的 联系 大 大 提高 了 诗 所 表现 出 
ii KIEO: magn. WREIK: — dul 来 的 意义 ， 也 让 诗 所 表现 出 来 的 主题 情感 更 加 明确 ， 所 以 ， 最 
终 本 文 的 方法 在 平均 分 上 远 高 于 ANMT 以 及 所 有 的 基准 方法 。 

3.2 ”模型 训练 表 5 人 工 评估 得 分 对 比 


本 文 对 2.2.2 节 中 用 于 词 扩展 的 keseq2seq 模型 和 2.3 节 中 Poeticness Fluency Coherence Meaning Average 
的 用 于 古诗 生成 的 pgseq2seq 模型 分 别 进行 了 训练 ， 两 个 模型 S-char 7-char S-char 7-char 5-char 7-char 5-char 7-char 5-char 7-char 
不 同 是 pgseq2seq 模型 有 两 个 编码 器 ， 但 是 编码 器 的 构造 都 是 
相同 的 ， 两 个 模型 训练 的 方法 都 参考 Wang 等 人 6] 的 序列 到 序 
列 模型 训练 广 法 。 模 型 让 练 标 都 是 让 预测 序列 和 原 序 列 相同 ， RNNPG 3.73 3.49 3.59 3.38 3.04 3.19 3.19 2.84 3.38 3.23 
本 文 将 项 测 的 数据 分 布 与 真实 数据 分 布 的 交叉 燃 年 为 训练 的 损 ANMT 4.51 4.335 4.334 428 3.77 3.86 3.78 3.85 4.01 4.02 
失 函 数 ， 优 化 器 采用 小 批量 随机 梯度 下 降 算法 Cthe minibatch 
stochastic gradient descent algorithm )。 另 外 ， 采 用 AdaDelta 算 
法 去 调节 学 习 率 PE。 最 后 ， 根 据 在 验证 集 上 的 困惑 度 来 选取 模 3.5 生成 示例 


SMT 3.18 3.16 2.75 2.79 2.52 2.56 2.72 2.54 2.79 2.76 


RNNLM 2.62 2.57 3.04 3.26 2.98 2.74 2.84 2.96 2.87 2.88 


Our approach 4.43 4.39 4.49 4.54 4.27 4.39 4.16 4.36 4.37 4.42 


型 最 优 参数 。 d 6 列举 了 实验 中 人 工交 互生 成 的 两 首 古诗 。 根 据 用 户 输 
3.3 评估 方法 入 “清明 怀古 ”和 “看 明月 ， 思 故乡 ”生成 古诗 。 首 先 ， 从 用 
评估 一 首 古诗 的 好 坏 ， 需 要 从 多 个 维度 去 判定 ， 并 要 求 评 。 户 输入 文本 中 提取 出 关键 词 “清明 ， 怀 十 ”和 “明月 ; 故乡 ” 


估 者 具备 一 定 的 专业 知识 ， 所 以 评估 古诗 具有 很 大 难度 。 目 前 ” 然后 ， 对 提取 出 的 关键 词 进行 扩展 ， 组 成 大 纲 “ 清 明 ; 怀古 ; 
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iB. 萧然 ”和 “明月 ; Wb. DIE. EDU. 显而易见 的 是 提取 输入， 顺序 地 生成 每 一 行 诗句 。 在 实验 阶段 ， 采 用 人 工 评估 的 
出 的 关键 词 与 扩展 出 的 关键 词 之 间 紧 密 联系 ， 关 键 词组 合 紧 扣 ” 方法， 邀请 了 20 位 具有 硕士 学 位 以 上 的 学 者 对 本 文 方法 以 及 
写作 意图 且 能 够 表达 出 一 种 情感 ， 最后， 根据 大 纲 的 关键 词 生 ”基准 方法 进行 了 打分 ， 最 终 的 得 分 证 明了 本 文 方法 优 于 所 有 基 
成 每 一 行 诗句 ， 从 生成 的 古诗 中 很 容易 看 出 第 一 首 诗 表现 出 的 。”” 准 方法 。 从 评估 结果 看 ， 本 研究 取得 了 很 好 的 成 果 ， 对 古诗 生 
是 怀古 伤感 之 情 ， 第 二 首 诗 表 现 的 是 思乡 翌 疏 之 情 。 成 及 其 他 自然 语言 生成 的 研究 将 会 有 很 大 的 参考 价值 。 未 来 工 
作 中 , 将 在 第 一 阶段 的 大 纲 提 取 中 加 入 主题 模型 , 如 采用 PLSA、 
LDA 等 主题 模型 。 另 外 ,将 尝试 把 本 文 方法 应 用 于 其 他 自然 语 
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Five characters quatrain 


: 言 生成 任务 上 。 
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